iT邦幫忙

2022 iThome 鐵人賽

DAY 6
1

工具的使用取決於你 How to use tools

工具的使用是數據分析師一大利器,生活中已經有非常多好用的工具了,但是選擇最適合當下情況的工作才能夠事半功倍。所謂殺雞用牛刀,牛刀確實也可以殺雞,也可以解決問題,但是在同樣狀況下我們是不是有更好的選擇?我們在進行任何事情前都必須要先思考好哪些工具才是最適合的。

使用樞紐分析功能 Pivoting Tools

在 Python 上使用樞紐分析就不像 Excel 那麼簡單了,這完全是不同的概念,如果說 Excel 進行樞紐分析就像是拼拼圖,那在 Python 上使用樞紐分析就是一個艱困的挑戰,你必須要很清楚自己的定義,並且了解自己的需求,清晰的設定出樞紐分析所要呈現的功能,這可能是很勸退的開始,但是相對的有了基礎的設定,後續進行就變得容易許多。

船艙與生存率 Pclass

使用 Python 來撰寫樞紐分析 Pivoting Table 功能,我可以利用 Pclass 判斷出是否跟旅客存活率有關,在 Python 中我們會利用 Groupby 的方式分析 Pclass。

train_df[['Pclass', 'Survived']].groupby(['Pclass'], as_index=False).mean().sort_values(by='Survived', ascending=False)

因為要了解船艙與生存率的關聯,所以「船艙」會是我們最主要的欄目,利用拖拉的方式把 Pclass 放入 Row 中,而生存率這項欄目則是以數值方式呈現在表中,可以看到下圖 Python 輸出結果與上方的 Pivoting Table 相同,生存率與船艙是有關聯性的。
https://ithelp.ithome.com.tw/upload/images/20230601/20140740IDlQ2CxJUT.png

性別與生存率 Sex

同樣的在 Excel 上我們能夠順序且順手的進行資料顯示格式的調整,我們這次以性別與生存率來進行說明。男性跟女性是女性(Sex=female)更有可能倖存下來,而且女性有非常高的存活率。

train_df[["Sex", "Survived"]].groupby(['Sex'], as_index=False).mean().sort_values(by='Survived', ascending=False)

同樣的比起上方複雜的程式碼,我們可以利用 Excel 中的樞紐分析達到所期待的功能,甚至我們能夠根據資料顯示格式做調整,把數值變成百分比,又或者是你想要快速製作一張圖片,也能夠很直覺的建一個新的圖出來。
https://ithelp.ithome.com.tw/upload/images/20230601/20140740F6MIJCH8Tm.png

SibSp 跟 Parch 與存活率的關聯性

其他還有像是 SibSp 跟 Parch 與存活率的關聯性。

train_df[["SibSp", "Survived"]].groupby(['SibSp'], as_index=False).mean().sort_values(by='Survived', ascending=False)

https://ithelp.ithome.com.tw/upload/images/20230601/201407408J8cTJd5kY.png

train_df[["Parch", "Survived"]].groupby(['Parch'], as_index=False).mean().sort_values(by='Survived', ascending=False)

https://ithelp.ithome.com.tw/upload/images/20230601/20140740BuuQlV8I71.png

得出假設 Answer

與資料透視表相關的內容中,就擁有許多可以嘗試的組合,盡可能的創造出自己得想像力,找到數據之間的相關性,知道每個特徵與生存的相關性有多大,提早發現可以幫助我們在後期將快速就關聯性來做建模。在這樣的過程中,我們也可以快速的理解到究竟有哪些資料是需要被留下來,而哪一些資料是應該被剔除的,減少無意義資料可以協助我們後期分析更順利,這是我們後面會在提到的內容。

謝謝大家的觀看,但歷史的痕跡會持續下去

今年沒組團,每一筆一字矢志不渝的獻身精神都是為歷史書寫下新頁,有空的話可以走走逛逛我們去年寫的文章。


Hi'Jerry均

Jerry 據說是個僅佔人口的 4% 人口的 INFP 理想主義者,總是從最壞的生活中尋找最好的一面,想方設法讓世界更好,內心的火焰和熱情可以光芒四射,畢業後把人生暫停了半年,緩下腳步的同時找了份跨領域工作。偶而散步、愛跟小動物玩耍。曾立過很多志,最近是希望當一個有夢想的人。

謝謝你的時間「訂閱,追蹤和留言」都是陪伴我走過 30 天鐵人賽的精神糧食。


上一篇
Ɖ5-根/ 鐵達尼號的 Python 的資料型態應用
下一篇
Ɖ7-根/ 鐵達尼號的 Python 的資料關聯性視覺化
系列文
先別急著學 Python | The Secret to Success in Python30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言